혼합 정밀도와 선형 변환을 이용한 양자화 된 심층 신경망의 추론 성능 개선 및 저장 공간 축소

조동빈; 서지원; Dongbin Cho; Jiwon Seo

연구문헌

학술대회 프로시딩

홈 > 연구문헌 > 학술대회 프로시딩 > 한국정보과학회 학술대회 > KCC 2021

KCC 2021

Current Result Document : 7 / 16 이전건 다음건

한글제목(Korean Title)	혼합 정밀도와 선형 변환을 이용한 양자화 된 심층 신경망의 추론 성능 개선 및 저장 공간 축소
영문제목(English Title)	Improving Inference Performance and Reducing Storage Space of Quantized DNN by Using Mixed-precision and Linear Transformation
저자(Author)	조동빈 서지원 Dongbin Cho Jiwon Seo
원문수록처(Citation)	VOL 48 NO. 01 PP. 0751 ~ 0753 (2021. 06)
한글내용 (Korean Abstract)	양자화(Quantization) 기법은 데이터를 표현하는 자료형의 크기를 축소시키는 기술로, 소프트웨어가 요구하는 계산량 및 저장 공간의 수준을 낮추기 위해 사용한다. 많은 심층 신경망(Deep Neural Network) 모델들을 양자화 할 때 8bit 자료형을 주로 사용는데, 이는 모델을 4bit 자료형으로 양자화 할 경우 모델의 성능이 크게 저하되기 때문이다. 본 논문에서는 INT4 자료형과 INT8 자료형을 모두 사용하는 혼합 정밀도를 이용하여 두 자료형의 이점을 모두 취할 수 있는 기법을 제안한다. 제안하는 기법은 1)양자화 시 정보 손실이 많은 계층에 높은 정밀도의 자료형을 적용하고, 2) 추론 시 혼합 정밀도의 자료형을 선형변환 하여 하나의 자료형으로 통합 후 계산하는 것이다. 실험 결과 INT4 단일 정밀도 양자화 모델과 유사한 저장 공간을 사용했으며, INT8 단일 정밀도 양자화 모델과 유사한 성능을 유지했다.
영문내용 (English Abstract)
키워드(Keyword)
파일첨부	PDF 다운로드